#NVIDIA GPU
【CES 2026】首款HBM4 GPU,全面投產
輝達周一表示,其下一代 Rubin AI 晶片已“全面投產”,並將於 2026 年下半年上市。同時,該公司還公佈了備受期待的 Blackwell 系列繼任者的更多細節。“我們必須每年都推進計算技術的進步,一年也不能落後,” 輝達首席執行長黃仁勳在 CES 2026 電子貿易展期間的主題演講中表示。魯賓發表此番言論之際,人們越來越擔心會出現“人工智慧泡沫”,因為人們越來越質疑大規模人工智慧基礎設施建設還能持續多久。這家晶片巨頭通常會在加州聖何塞舉行的 GTC 開發者大會上公佈其人工智慧晶片的最新進展,今年的 GTC 大會將於 3 月 16 日至 19 日舉行。輝達在2025年3月的GTC大會上預覽了Vera CPU和Rubin GPU,並表示Vera-Rubin晶片組將比其前代產品Grace-Blackwell提供更出色的AI訓練和推理性能。推理是指使用訓練好的AI模型來生成內容或執行任務。在周一的發佈會上,黃仁勳公佈了Rubin系列產品的更多細節。Rubin GPU的推理計算性能是Blackwell的五倍,訓練計算性能是Blackwell的3.5倍。與Blackwell相比,新一代晶片還能降低訓練和推理成本,推理令牌成本最多可降低10倍。Rubin 架構包含 3360 億個電晶體,在處理 NVFP4 資料時可提供 50 petaflops 的性能。相比之下,Nvidia 上一代 GPU 架構 Blackwell 的性能最高為 10 petaflops。同時,Rubin 的訓練速度提升了 250%,達到 35 petaflops。晶片的部分計算能力由一個名為 Transformer Engine 的模組提供,該模組也隨 Blackwell 一起發佈。據輝達稱,魯賓的 Transformer Engine 基於一種更新的設計,並具有一項名為硬體加速自適應壓縮的性能提升功能。壓縮檔案可以減少其包含的位元數,從而減少 AI 模型需要處理的資料量,進而加快處理速度。輝達首席執行長黃仁勳表示:“Rubin 的問世恰逢其時,因為人工智慧的訓練和推理計算需求正呈爆炸式增長。憑藉我們每年推出新一代人工智慧超級電腦的節奏,以及六款全新晶片的深度協同設計,Rubin 的推出標誌著我們向人工智慧的下一個前沿領域邁出了巨大的一步。”據輝達稱,Rubin 還將成為首款整合 HBM4 記憶體晶片的 GPU,其資料傳輸速度高達每秒 22 TB,比 Blackwell 有了顯著提升。該公司表示,Rubin 系列晶片已經“全面投產”,並將於今年下半年提高產量。微軟 Azure 和輝達支援的雲服務提供商 CoreWeave 將成為首批在 2026 年下半年提供由 Rubin 提供支援的雲端運算服務的公司之一。在周日的一次媒體簡報會上,輝達高級總監迪翁·哈里斯表示,提前推出 Rubin 產品是因為這些晶片“在展示實際準備情況方面達到了一些非常關鍵的里程碑”,並補充說,該公司正在努力使生態系統做好準備,以採用 Vera-Rubin 架構。“鑑於我們目前的準備情況,以及市場對 Vera-Rubin 的熱情,我們認為這是一個絕佳的機會,可以在 CES 上推出這款產品,”哈里斯說。然而,比預期更早發佈的 Rubin 一代晶片並未給市場留下深刻印象,輝達股價在周一盤後交易中下跌 0.13%,此前收於 188.12 美元。黃仁勳身著一件閃亮的黑色皮夾克,這是他標誌性皮夾克的改良版,在拉斯維加斯BleauLive劇院向3000名座無虛席的聽眾發表了主題演講 。現場氣氛熱烈——這位CEO一出場就受到了歡呼、掌聲和觀眾用手機拍照的熱烈歡迎——這充分證明了這家公司如彗星般迅速崛起,如今它已被視為人工智慧時代最重要的風向標。首席執行長此前表示,即使沒有中國或其他亞洲市場,該公司預計到 2026 年,其最先進的 Blackwell AI 晶片和 Rubin 的“早期產能提升”也將帶來5000 億美元的收入。與此同時,黃仁勳認為人工智慧的未來將主要體現在物理世界中。在CES 2026正式開幕前一天,也就是周一的場外活動中,輝達宣佈與多家製造商、機器人製造商和領先的汽車製造商達成合作,其中包括比亞迪、LG電子和波士頓動力公司。黃仁勳表示:“機器人領域的 ChatGPT 時刻已經到來。物理人工智慧的突破——能夠理解現實世界、推理和規劃行動的模型——正在解鎖全新的應用。”他指的是開啟生成式人工智慧熱潮的聊天機器人 ChatGPT。輝達發佈Vera Rubin NVL72人工智慧超級電腦在2026年國際消費電子展(CES)上,人工智慧無處不在,而輝達GPU則是不斷擴展的人工智慧領域的核心。今天,在CES主題演講中,輝達首席執行長黃仁勳分享了公司將如何繼續引領人工智慧革命的計畫,因為這項技術的應用範圍將遠遠超出聊天機器人,擴展到機器人、自動駕駛汽車以及更廣泛的物理世界。首先,黃仁勳正式發佈了輝達下一代AI資料中心機架級架構Vera Rubin。Rubin是輝達所謂的“極致協同設計”的成果,它由六種晶片組成:Vera CPU、Rubin GPU、NVLink 6交換機、ConnectX-9 SuperNIC、BlueField-4資料處理單元和Spectrum-6乙太網路交換機。這些元件共同構成了Vera Rubin NVL72機架。對人工智慧計算的需求永無止境,而每款 Rubin GPU 都承諾為這一代產品提供更強大的計算能力:NVFP4 資料類型的推理性能高達 50 PFLOPS,是 Blackwell GB200 的 5 倍;NVFP4 訓練性能高達 35 PFLOPS,是 Blackwell 的 3.5 倍。為了滿足如此龐大的計算資源需求,每款 Rubin GPU 都配備了 8 個 HBM4 視訊記憶體堆疊,提供 288GB 的容量和 22 TB/s 的頻寬。每個GPU的計算能力只是人工智慧資料中心的一個組成部分。隨著領先的大型語言模型從啟動所有參數以生成給定輸出詞元的密集架構,轉向每個詞元僅啟動部分可用參數的專家混合(MoE)架構,這些模型的擴展效率得以相對提高。然而,模型內部專家之間的通訊需要大量的節點間頻寬。Vera Rubin推出用於縱向擴展網路的NVLink 6,將每個GPU的交換矩陣頻寬提升至3.6 TB/s(雙向)。每個NVLink 6交換機擁有28 TB/s的頻寬,每個Vera Rubin NVL72機架配備9個這樣的交換機,總縱向擴展頻寬可達260 TB/s。Nvidia Vera CPU 採用 88 個定製的 Olympus Arm 核心,並配備 Nvidia 所謂的“空間多線程”技術,可同時運行多達 176 個線程。用於將 Vera CPU 與 Rubin GPU 連接起來的 NVLink C2C 互連頻寬翻倍,達到 1.8 TB/s。每個 Vera CPU 可定址高達 1.5 TB 的 SOCAMM LPDDR5X 記憶體,記憶體頻寬高達 1.2 TB/s。為了將 Vera Rubin NVL72 機架擴展為每個包含八個機架的 DGX SuperPod,Nvidia 推出了兩款採用 Spectrum-6 晶片的 Spectrum-X 乙太網路交換機,這兩款交換機均整合了光模組。每顆 Spectrum-6 晶片可提供 102.4 Tb/s 的頻寬,Nvidia 將其應用於兩款交換機中。更多產品同步發佈NVIDIA正式發佈了面向AI資料中心的新型CPU“Vera”和GPU“Rubin”。雖然此前已有相關計畫公佈,但首席執行長黃仁勳於1月5日在拉斯維加斯的主題演講中正式揭曉了這些產品。此外,該公司還發佈了高速網路產品,例如 NVLink 6 交換機(允許使用 Vera 和 Rubin 在機架內進行擴展)、ConnectX-9 SuperNIC、BlueField-4 DPU 和 Spectrum-6 乙太網路交換機(允許在資料中心內擴展此類機架)。Rubin是當前一代GPU“Blackwell”(NVIDIA B300/B200/B100)的繼任者,採用了全新的GPU架構和HBM4視訊記憶體。根據NVFP4的計算,Blackwell的AI推理和訓練性能為10 PFLOPS,而Rubin的推理性能達到50 PFLOPS,速度提升了5倍;訓練性能達到35 PFLOPS,速度提升了3.5倍。NVIDIA 正式宣佈 Vera 是一款採用 Arm 架構的 CPU,配備 88 個 NVIDIA 定製設計的 Olympus 核心;Rubin 是一款面向 AI 資料中心的 GPU,將成為當前 Blackwell (B300/B200/B100) 產品的繼任者。這款以美國著名科學家庫珀·魯賓 (Cooper Rubin) 命名的 Rubin GPU,採用 Rubin 架構,相比 Blackwell 架構,能夠實現更高效的 AI 計算。它還配備了全新的 HBM4 記憶體技術、第六代 NVLink、機密計算功能和 RAS 引擎,從而提升了平台級的性能和安全性。通過這些改進,在使用 NVIDIA 的高級推理模型和實現智能體 AI 的 MoE(專家混合)模型時,推理的每個令牌成本最多可以降低十分之一,訓練的每個令牌成本最多可以降低四分之一。與上一代 Blackwell(可能是 GB200 中搭載的 B200)相比,Rubin 的 NVFP4 推理性能提升至 50 PFLOPS,性能提升 5 倍;訓練性能提升至 35 PFLOPS,性能提升 3.5 倍(Blackwell 的這兩項均為 10 PFLOPS)。HBM4 的記憶體頻寬為 22 TB/s,是 Blackwell 的 2.8 倍;每個 GPU 的 NVLink 頻寬為 3.6 TB/s,性能提升兩倍。另一方面,Vera 是一款搭載 88 個 NVIDIA 定製設計的 Olympus 核心的 Arm CPU。它支援 NVIDIA 的專有虛擬多線程 (SMT) 技術“NVIDIA Spatial Multi-threading”,啟用後可作為 176 線程 CPU 使用。它可配備 1.5TB 的 LPDDR5X 記憶體(容量是上一代 Grace 的三倍),基於資料中心記憶體模組標準“SOCAMM”,記憶體頻寬為 1.2TB/s。與 Blackwell 系列一樣,Vera Rubin 每個模組將包含一個 Vera 處理器和兩個 Rubin 處理器。此外,還將推出 Vera Rubin NVL72,這是一款可擴展解決方案,可將 36 個 Vera Rubin 處理器整合到單個機架中。Vera Rubin NVL72 配備了支援第六代 NVLink 協議的 NVLink 6 交換機,單個機架可容納 36 個 Vera CPU 和 72 個 Rubin GPU。此外,NVIDIA 還計畫推出“HGX Rubin NVL8”,這是一款面向 OEM 廠商的設計,將八個 Rubin 模組整合在一台伺服器中;以及“DGX Rubin NVL8”,這是一款專為 x86 處理器設計的伺服器。客戶可以選擇將 Rubin 與 NVIDIA 的 Arm CPU 或 x86 CPU 搭配使用。同時,NVIDIA 還發佈了用於橫向擴展的高速網路新產品,包括 ConnectX-9 SuperNIC、BlueField-4 DPU 和 Spectrum-6 乙太網路交換機。這些產品可以與前文提到的 Vera Rubin NVL72 和 HGX Rubin NVL8 配合使用,實現橫向擴展。該公司還發佈了“DGX SuperPOD with DGX Vera Rubin NVL72”,這是一款由八塊 Vera Rubin NVL72 GPU 組成的擴展型超級電腦,可作為人工智慧超級電腦的參考設計。通過利用 CUDA 等軟體解決方案,一台超級電腦即可使用 256 個 Vera CPU 和 512 個 Rubin GPU。據該公司稱,Vera 和 Rubin 計畫於 2026 年下半年發佈,並將通過四大雲服務提供商(AWS、Google雲、微軟 Azure 和 Oracle 雲基礎設施)以及戴爾科技、HPE、聯想和超微等原始裝置製造商 (OEM) 提供。該公司解釋說,OpenAI、Anthropic 和 Meta 等人工智慧模型開發公司已經宣佈了他們的採用計畫。輝達五年來首次“缺席”CES展會整個行業正陷入零部件短缺的困境,輝達剛剛在X平台上宣佈,其2026年CES主題演講將“不會發佈任何新的GPU”,這無疑給新PC組裝商們僅存的一點希望潑了一盆冷水。這打破了輝達連續五年在CES上發佈新款GPU(無論是桌面級還是移動級)的慣例;這一次,將不會有任何新的硬體產品問世。此次發佈會的大部分內容可能都會聚焦於人工智慧領域的最新進展。自2021年以來,微軟每年都會在CES上展示其最新的晶片產品。最近,RTX 50系列顯示卡在拉斯維加斯標誌性的CES展廳首次亮相,並且一直有傳言稱RTX 50 Super系列顯示卡也將在CES 2026上發佈。雖然官方從未正式確認,但DRAM短缺可能導致了此次發佈計畫的擱淺。否則,輝達本可以在CES 2024上發佈RTX 40 Super系列顯示卡,而這距離首款Ada Lovelace顯示卡發佈僅一年之隔。此外,該公司最新的Blackwell GPU採用的是GDDR7視訊記憶體,而GDDR7視訊記憶體的生產難度更高。情況已經惡化到如此地步,甚至有傳言稱輝達將重啟RTX 3060的生產,因為該顯示卡採用的是GDDR6視訊記憶體,並且採用的是三星較老的8nm工藝製造。記憶體供應是問題的關鍵所在。如果背後的工廠完全癱瘓,輝達就無法發佈新的GPU。全球只有三家公司——美光、SK海力士和三星——能夠生產尖端DRAM,而且它們都樂於將產品賣給AI客戶以獲取更高的利潤。對通用人工智慧(AGI)的渴求促使像OpenAI這樣的公司制定了突破性的計算目標,這些目標遠遠超出了我們現有供應鏈的承載能力。有些人可能會疑惑,為什麼政府不介入幫助消費者?監管市場難道不是他們的職責嗎?不幸的是,地緣政治因素使情況更加複雜,因為前沿人工智慧代表著另一場軍備競賽,而華盛頓希望保持對中國的領先優勢。歸根結底,不會有救星出現。就像2014年的記憶體危機和過去十年間各種GPU短缺一樣,我們只能等到人工智慧熱潮停滯不前才能迎來轉機。目前,輝達顯示卡的價格尚未上漲,所以這或許是我們重返黃牛倒賣時代的最後時刻。不過,社區裡有些人,比如藍寶石的公關經理,仍然抱有希望,相信這場風暴最終能夠過去。 (半導體行業觀察)
算力寡頭的崛起:AI 基礎設施秩序
在 2025 年的科技敘事裡,“算力” 幾乎取代了 “模型”,成為新的關鍵詞。訓練資料與演算法創新仍在持續,但決定一家企業能否進入下一階段競爭的,不再是研究突破,而是能否獲得足夠的 GPU。在 a16z(Andreessen Horowitz)的視角中,這種轉變並非短期現象,而是一場基礎設施權力的重組。當算力成為 AI 產業的硬通貨,整個技術堆疊的價值開始從上層應用,回流到最底層的資源控制:晶片製造、雲調度、電力供給、資本密度,統統成為新的戰略要地。正如 a16z 合夥人 Martin Casado 所說:“當創新成本由演算法轉向硬體與能源,競爭就從工程能力轉向資本結構。”Dylan Patel 在 a16z 播客《GPT-5、NVIDIA、Intel》中形容輝達投資英特爾,是 “一種縱向自我保護”;Casado 則進一步指出,一個新的 “算力寡頭秩序” 正在成形 ——少數同時掌握計算、模型與能源分配權的公司,將定義未來 AI 的速度上限。本篇筆記試圖透過 a16z 近三個月(7–9 月)播客中幾位核心合夥人的公開討論,觀察他們如何理解這場從技術到資本的結構性遷移。從晶片到雲,再到資本,我們正見證一個新世界的建立:程式碼仍在寫,但計算的 “權” 與 “能”,正悄然集中。|註: a16z(Andreessen Horowitz)是一家總部位於矽谷的風險投資機構,由 Marc Andreessen 與 Ben Horowitz 創立。它以長期投資技術底層架構聞名,其 Podcast 常被視為矽谷未來趨勢的 “思想窗口”。01|晶片層:a16z 眼中的 “能源秩序”在 a16z 與行業專家的播客討論中,晶片層始終被視為 AI 產業重構的起點。在 《Dylan Patel: GPT-5, NVIDIA, Intel》 一集中,Patel 與 a16z 的 Erin Price-Wright、Guido Appenzeller 共同討論了一個核心問題:“為什麼 ‘複製 NVIDIA’ 幾乎不可能?”(1)複製 NVIDIA:困難不在晶片,而在系統協同Patel 指出:即使你能造出與 NVIDIA 性能接近的 GPU,也很難複製其系統性效率。這背後的瓶頸不在電晶體,而在協同層:包括節點工藝、HBM 記憶體頻寬、網路互連、能耗管理、熱設計等。每一處邊緣差距都會在規模化叢集中被放大為成本和性能損耗。他稱這種現象為 “系統性摩擦(Systemic Friction)”,並提醒聽眾:“晶片不是一塊矽片,而是一整條產業管線。”a16z 在這段對話中延伸出一個關鍵判斷:硬體競爭的本質,是供應鏈與系統架構的耦合能力。因此,要複製 NVIDIA,不只是抄硬體,而是重建一整套協同基礎設施。(2)NVIDIA 投資 Intel:產業風險下的戰略重構2025 年 7 月,NVIDIA 宣佈向 Intel 投資 50 億美元 —— 表面看是競爭者之間的罕見合作,但在 Patel 的分析中,這一行為本質上是一種戰略保險。他從兩條路徑解讀:1. 供應鏈保險(Supply Chain Hedge):在 GPU 供應緊張、HBM 記憶體受限的環境下,NVIDIA 需要確保 CPU / 封裝 / 製造等環節的穩定性。通過繫結 Intel,可以強化異構協同和製造冗餘。2. 政策避險(Policy Hedge):在出口管制、反壟斷監管高壓下,這種 “友敵式投資” 能緩解政治與產業層的摩擦。a16z 的主持人 Appenzeller 在節目中評論:“這不是一筆財務投資,而是結構性博弈。它重新定義了什麼叫 ‘產業聯盟’。”在 a16z 的語境下,這意味著:算力寡頭之間不再是零和關係,而是權力結構的互鎖。(3)算力即能源:物理極限與地理壁壘Patel 在同一播客中強調:“算力消耗的不是矽,而是電。”一個 10 萬張 GPU 的資料中心,其最大瓶頸往往不是晶片,而是電網容量與冷卻效率。他指出,美國新建的 AI 資料中心多集中在德州、俄勒岡、弗吉尼亞等電價低、氣候冷的地區,而非舊金山或紐約這樣的科技中心。a16z 將這種現象定義為 “能源可得性壁壘(Energy Accessibility Barrier)”:當算力與電力繫結後,能源供應本身就成為競爭力的一部分。Patel 的結論極具警示性:“資料中心的選址差異,正在決定全球 AI 的速度差。”在 a16z 的視角中,這正是未來 “算力秩序” 的雛形:技術進步最終被物理條件重新約束,而能源效率成為新的護城河。02|雲層:a16z 眼中的 “算力入口”如果說晶片層定義了誰能製造算力,那麼雲層則決定了誰能分配算力。a16z 合夥人 Jennifer Li 在 8 月的播客 《The AI Infrastructure Stack》 中指出:“AI 的底層設施,正在從硬體棧轉向調度棧。真正的控制點,不是晶片,而是調度系統。”這句話,是 a16z 理解 “AI 基礎設施秩序” 的轉折點。(1)算力的抽象化:從晶片到服務Jennifer Li 在那期播客中,系統地拆解了 AI 技術堆疊的演進路徑:從模型到推理,再到資料與調度,每一層都在被重新封裝。她強調,未來基礎設施的核心,不在於 GPU 的數量,而在於是否能將算力 “抽象化” 為可組合、可呼叫、可計費的服務。她舉例:訓練階段需要長時、高密度 GPU 叢集;推理階段則要求低延遲、分佈式呼叫;而一套成熟的算力平台,必須能在兩者之間靈活切換。這正是 a16z 投資策略中的核心邏輯:算力不再是固定資產,而是一種動態可交易的服務。(2)協議層崛起:算力的 “通用語言”a16z 在基礎設施投資中持續押注 “協議層(protocol layer)”。Li 解釋道:“協議的意義在於,使算力可遷移、可互換、可程式設計。”在 2025 年的播客中,她提到多家被投公司正在建構跨雲相容的算力協議,允許開發者通過統一 API 在不同雲之間呼叫 GPU 資源。這意味著,雲端運算的壟斷格局可能被 “協議抽象” 重新定義。對 a16z 來說,這並不是 “去中心化” 的理想主義,而是對資源調度效率的再設計。Jennifer Li 總結說:“算力的未來,不是更多晶片,而是更好的調度語言。”(3)延遲與地域:新的算力地理學a16z 另一位合夥人 Appenzeller 在隨後的 《Edge vs Cloud Tradeoffs in AI 》節目中補充指出:推理任務的增長,正在迫使算力分佈發生位移 —— 從集中式雲端運算,回到更接近使用者的邊緣節點。在他們看來,這種 “分佈式反向遷移”,並非對雲的替代,而是其自然演化:“延遲成本,正在成為新的地理壁壘。”這意味著,誰能在關鍵區域(如電力穩定、氣候冷、網路頻寬好的地區)部署低延遲算力節點,誰就掌握了下一代 AI 應用的流量入口。因此,在 a16z 的判斷框架裡:雲層的競爭,不是 AWS vs Azure 的延續,而是 “入口層 vs 延遲層” 的新戰場。(4)總結:雲層的權力邏輯綜合 a16z 在多期播客的判斷,可以提煉出他們對雲層的三層邏輯:在這一層意義上,Jennifer Li 的結論顯得尤其簡潔:“雲不再是工具,而是通道;誰控制了通道,誰就定義了速度。”03|資本層:a16z 如何看待 “算力的金融化”當晶片和雲都在加速集中,a16z 認為第三個權力中心正在浮現:資本本身。Martin Casado 在 7–9 月的兩期節目 《Monopolies vs Oligopolies in AI》 與 《The Economics of AI Infrastructure》 中提出,AI 的競爭邏輯已經從 “技術創新” 轉向 “資本密度競爭”。(1)技術紅利的終點:資本密度驅動期Casado 指出,AI 的邊際創新效率正在下降:訓練集規模逼近上限、演算法創新趨緩,而模型迭代的速度卻越來越快。他給出的關鍵數字是:“訓練一個 GPT-5 等級模型的成本,在 50 億至 100 億美元之間。”這意味著,AI 不再是工程師之間的賽跑,而是資本預算之間的比拚。Casado 把這一階段稱為 “資本密度驅動期(capital-intensive phase)”:創新上限,由能否獲得電力與現金流共同決定。(2)算力資產化:GPU 的金融化處理程序在 《The Economics of AI Infrastructure》 節目中,Casado 提出了一個核心概念:“Compute as an asset.”他認為,GPU 已經具備了傳統生產要素的三重屬性:可折舊(有壽命周期);可出租(推理租賃市場成熟);可抵押(資本市場開始建立 GPU 抵押信用線)。換句話說,算力已經成為一種可計價、可交易的資產類別。a16z 的另一位合夥人 Chris Dixon 曾用更直白的比喻說:“Compute is the new oil field of AI.”他們認為,這一趨勢意味著:AI 不僅在 “消費算力”,而是在 “建設資產”。(3)寡頭格局的形成:資本的幾何效應Casado 進一步指出,算力市場不會 “回歸均衡”。原因有三:資本門檻極高(硬體投資與資料中心支出形成自然壁壘);模型迭代依賴網路效應(規模優勢強化領先者的地位);資本集中度與效率正相關(更多融資意味著更快實驗與部署)。因此,AI 產業正進入他稱之為 “功能性寡頭(functional oligopoly)” 的階段。這不是反競爭,而是資本密度的自然後果。“在訓練成本呈指數上升的世界裡,贏家必須是資本充沛的玩家。”——Martin Casado,a16z Podcast,2025 年 8 月(4)為什麼 a16z 仍投早期公司看似矛盾的是:a16z 一邊承認寡頭格局,一邊仍在積極投資早期 AI 基礎設施公司。Casado 在節目中解釋,這並非兩難,而是雙層下注邏輯:他稱這種模式為 “Anti-Oligopoly Efficiency Dividend”——即使無法挑戰寡頭,也能在效率紅利中捕捉收益。(5)長期預測:算力市場將類比能源市場Casado 在結尾提出一個極具象徵性的比喻:“AI 計算的終局,會像能源市場。能源巨頭掌控供應,衍生市場提供流動性。”a16z 的長期假設是:算力將成為新的能源資產;協議層將成為新的交易系統;資本將決定創新的速度極限。這三點,構成了他們對未來 5–10 年 AI 基礎設施秩序的核心預測。結語|算力秩序的終極問題在 a16z 看來,AI 的競爭已經從演算法層滑向物理層、從技術紅利走向資本密度。這場遷移的核心,不是 “創新” 消失,而是創新的物理邊界被重新定義。他們提出的三層結構 ——晶片層:製造權;雲層:分配權;資本層:定價權;構成了 AI 世界新的權力分佈圖。模型仍然重要,但模型的命運,取決於它能否買到足夠的電力、時間與現金流。當技術的上限被物理與金融雙重約束,矽谷正在重新學習一個古老的問題:在一個能源決定速度的世界裡,創新的真正稀缺是什麼?—— a16z 給出的答案,或許是:自由分配算力的權力。 (複利貓的慢思考)
GPU警鐘敲響,AI過熱了?
在OpenAI和輝達等聯手搞動GPU和整個晶片市場之後,一個警鐘悄然敲響。周二, 知名媒體The Information 在一篇報導對該公司購買數十億 Nvidia 晶片並作為雲提供商出租給 OpenAI 等客戶的計畫提出了質疑,隨後該公司股價下跌 3%。報導稱,甲骨文最近轉型為最重要的雲端運算和人工智慧公司之一,但可能會面臨盈利挑戰,因為輝達晶片價格昂貴,而且其人工智慧晶片租賃定價激進。根據報告援引內部檔案稱,截至8月的三個月裡,甲骨文旗下輝達雲業務的銷售額為9億美元,毛利率為14%。這遠低於甲骨文約70%的整體毛利率。甲骨文今年9月表示,其積壓的雲合同(稱為剩餘履約義務)在一年內增長了359%。該公司預測,2030年雲基礎設施收入將達到1440億美元,高於2025年的100多億美元。然而,這些預測收入的大部分來自 Oracle在星際之門項目中所扮演的角色,該項目中,這家企業供應商正與 OpenAI 合作,開設五個裝有 Nvidia 人工智慧晶片的大型資料中心。縱觀整個AI市場,這其實是OpenAI一系列動作下的結果OpenAI挑起的AI基礎設施爭奪戰據金融時報最新報導,OpenAI 今年已簽署了約 1 兆美元的合同,用於運行其人工智慧模型的計算能力。這些承諾使其收入相形見絀,並引發了對其資金來源的質疑。今年 1 月,OpenAI 與軟銀、甲骨文等公司啟動了一項名為“星際之門”的計畫,承諾為 OpenAI 在美國基礎設施建設上投資高達 5000 億美元。目前尚不清楚輝達和 AMD 的交易將如何融入“星際之門”計畫。這家 ChatGPT 製造商尚未透露是直接購買晶片還是通過其雲端運算合作夥伴購買,預計將租賃部分輝達晶片。OpenAI 已從其供應商處獲得了巨額財務激勵,以換取其晶片採購的回報。Nvidia 計畫在未來十年向 OpenAI 投資 1000 億美元,OpenAI 可以用這筆資金購買 Nvidia 的晶片,用於其 AI 資料中心。AMD 將向 OpenAI 提供認股權證,使其能夠以每股 1 美分的價格收購 OpenAI 最多 10% 的股份,具體取決於他們的項目是否達到特定目標,其中包括一些與 AMD 股價掛鉤的目標。據 OpenAI 高管估計,按目前的價格計算,每部署 1 千兆瓦的人工智慧計算能力的成本約為 500 億美元,總成本約為 1 兆美元。這些交易將一些全球最大的科技集團與 OpenAI 的能力緊密聯絡在一起,OpenAI 有能力發展成為一家盈利企業,並能夠償還其日益沉重的財務負擔。但DA Davidson 分析師 Gil Luria 表示:“OpenAI 沒有能力做出任何這些承諾”,他同時並補充該公司今年可能虧損約 100 億美元。“矽谷‘假裝成功,直到成功’的理念部分在於讓人們參與其中。現在,許多大公司在 OpenAI 上投入了大量資金,”他補充道。OpenAI 在基礎設施、晶片和人才方面投入了大量資金,遠沒有達到實現這些宏偉計畫所需的資金。這些交易還涉及這家全球最有價值的初創公司與其合作夥伴之間的循環安排,以及大多數情況下尚未達成一致的複雜融資條款。彭博社在一篇相似的報導中也指出,兩周前,輝達公司同意向OpenAI投資高達1000億美元,以幫助這家領先的人工智慧初創公司建設一個規模龐大、足以為一座大城市供電的資料中心。OpenAI則承諾在這些資料中心部署數百萬塊輝達晶片。這一安排因其“循環”性質而迅速受到批評。本周,OpenAI再接再厲,達成了一項類似的協議。這家ChatGPT的開發商周一與輝達的競爭對手AMD公司簽署了合作協議,將部署價值數百億美元的AMD晶片。作為合作的一部分,OpenAI有望成為AMD的最大股東之一。據報導, AMD 已與 OpenAI 達成合作夥伴關係,ChatGPT製造商將在多代晶片中部署 6 GW 的 AMD 圖形處理單元 (GPU)。 這筆交易對 OpenAI 來說是一個重大決定,OpenAI 幾乎完全依賴 Nvidia晶片來訓練 ChatGPT 及其其他 AI 產品背後的模型。Nvidia 佔據了人工智慧加速器市場的主導地位,市場份額估計為 80% 至 95%,當供應緊張或價格上漲時,客戶幾乎沒有其他選擇。現在,Instinct 系列在資料中心直接與 Nvidia 的 H100 和 H200 晶片競爭,這些處理器在資料中心訓練大型語言模型 (LLM) 並運行推理工作負載。此次合作的財務利益相當可觀——正如AMD執行副總裁、首席財務官兼財務主管 Jean Hu所說,此次合作“預計將為 AMD 帶來數百億美元的收入,同時加速 OpenAI 的 AI 基礎設施建設”。 她補充說,該協議“為 AMD 和 OpenAI 創造了重要的戰略一致性和股東價值,預計將大大增加 AMD 的非 GAAP 每股收益”。對於 AMD 來說,獲得 OpenAI 作為客戶是其多年來試圖打破 Nvidia 對 AI 晶片市場的控制的證明。從Meta到xAI,都在搶GPU除了OpenAI以外,其他雲供應商也都在加入到了這個瘋狂的AI基礎設施浪潮。從相關報導可以看到,META 和 CoreWeave 已簽署了一份價值 140 億美元的協議,利用後者的GPU算力為 Facebook 母公司提供計算能力。 ORACLE也正在和Meta 就一項價值約 200 億美元的多年期雲端運算協議進行談判,這凸顯了這家社交媒體巨頭致力於更快獲得計算能力的決心。八月底,有消息指出,Meta 與Google簽署了價值 100 億美元的雲端運算協議。根據協議,Meta 將使用Google雲的伺服器、儲存、網路和其他服務。此前,Meta 首席執行官馬克·祖克柏 (Mark Zuckerberg) 曾在 7 月份表示,公司將斥資數千億美元建設幾個大型人工智慧資料中心。在最新的財報電話會議上,該公司預測 2025 年的資本支出將提升到 660 億至 720 億美元。當中,Meta 將部分資金投向出版商、晶片初創公司和雲服務提供商,並與之達成協議——這是一項龐大行動的一部分。與此同時,數十億美元的資金正湧入輝達的 GPU、定製晶片以及類似能源公用事業的資料中心,旨在確保人工智慧經濟的各個領域都不受限制。值得一提的是,Meta 的高管表示,他們預計到 2028 年將在人工智慧基礎設施上花費 6000 億美元 ,包括 大型資料中心。另一家巨頭微軟也是GPU的大買家。科技諮詢公司 Omdia 的分析師估計,微軟在去年購買了 48.5 萬塊輝達的“Hopper”晶片。這使得微軟遠遠領先於輝達的第二大美國客戶 Meta(購買了 22.4 萬塊 Hopper 晶片),以及其雲端運算競爭對手亞馬遜和Google。但這遠遠滿足不了微軟的需求。據知情人士在本月初透露,微軟與 NeoCloud 公司 Nebius Group NV 達成的協議將為微軟內部團隊提供計算能力,用於開發大型語言模型和消費者 AI 助手。這項價值高達 194 億美元的協議公佈後,Nebius 股價應聲上漲,但公告並未透露具體細節。知情人士表示,作為協議的一部分,微軟將獲得輝達公司超過 10 萬塊最新的 GB300 晶片的使用權。雲供應商通常營運著自己的資料中心,但微軟卻難以提供足夠的計算能力。租用 NeoClouds 的伺服器可以加快速度,因為他們已經解決了包括獲取足夠的電力和晶片在內的後勤挑戰。“我們在人工智慧領域處於非常激烈的爭奪戰模式,”微軟雲業務負責人 Scott Guthrie 表示。“我們已經決定,我們不想在容量方面受到限制。”Elon Musk旗下的xAI也已然成為了AI基礎設施市場的另一個爭奪者。其中,孟菲斯是馬斯克斥巨資進軍人工智慧戰爭的前線。他的人工智慧公司 xAI 已經在這座布拉夫城建造了一座大型資料中心,並稱之為世界上最大的超級電腦。這座名為“Colossus”的設施擁有超過 20 萬塊輝達晶片,並為人工智慧聊天機器人 Grok 提供技術支援。現在,馬斯克即將完成第二座設施,這座設施規模將更大,他稱之為“Colossus 2”。一些人工智慧和資料中心專家表示,完成Colossus 2將耗資數百億美元。僅輝達晶片一項就耗資巨大:一位熟悉孟菲斯項目財務狀況的人士表示,馬斯克需要至少花費180億美元來購買大約30萬塊晶片才能完成孟菲斯項目。馬斯克在7月份表示,Colossus 2將總共擁有55萬塊晶片,並曾暗示最終可能擁有100萬個處理單元。此前報導指出,馬斯克還在探索一種無需直接購買、而是通過與外部合作夥伴達成的複雜融資協議租賃的方式來囤積價值120億美元的晶片。再加上其他雲廠商,尤其是中國廠商的搶奪,對於AI算力和GPU的需求,正在瘋狂增長。根據《商業內幕》對財務報表的分析,今年,我們統計的五大能源使用者中的四家,亞馬遜、Meta、Microsoft 和Google,估計可以在資本支出上花費 3200 億美元,主要用於人工智慧基礎設施。這超過了芬蘭的 GDP,略低於埃克森美孚 2024 年的總收入。另一場網際網路泡沫正在上演?此前從未有過如此巨額的資金被如此迅速地投入到一項儘管潛力巨大,但其盈利能力在很大程度上仍未經證實的技術上。而這些投資通常可以追溯到兩家領先的公司:輝達和OpenAI。近期兩大巨頭之間發生的一系列交易和合作,加劇了人們的擔憂:日益複雜且相互關聯的商業交易網路正在人為地支撐著價值數兆美元的人工智慧熱潮。幾乎每個經濟領域都面臨風險,人工智慧基礎設施的炒作和建設波及了各個市場,從債務、股票到房地產和能源。晨星公司分析師布萊恩·科萊洛在談到輝達對OpenAI的投資時表示:“如果一年後我們經歷了人工智慧泡沫並最終破裂,這筆交易可能是早期的蛛絲馬跡之一。如果情況惡化,循環關係可能會發揮作用。”這種迅速吹起的泡泡,讓人想起了四分之一個世紀前的“網際網路泡沫”。當時,公司們爭先恐後地為新興網際網路奠定支柱時,出現了類似的模式。在截至 2001 年的五年裡,WorldCom和Global Crossing等公司花費了數百億美元鋪設光纜和安裝其他網路功能,但第二年,網際網路泡沫破滅導致為建設提供資金的貸方索要資金,結果倒閉了。根據Businessinsider引述布魯金斯學會(Brookings Institution)的分析報告顯示,領導光纖建設的公司的股東損失了2兆美元的價值,而50萬名工人失去了工作。雖然光纜最終被投入使用,主要是由於 Netflix 開創的串流媒體視訊革命,但許多鋪設它的公司並沒有看到它。就像早期的光纜和鐵路一樣,資料中心的建設和 GPU 的購買都是由華爾街資助的。當然如上所述,矽谷巨頭本身也越來越多地為繁榮提供資金。這進一步引發了擔憂。“我們都見證了這種行為的某些方面,”JonesTrading首席市場策略師邁克·奧羅克(Mike O'Rourke)上個月在一份報告中寫道。“網際網路泡沫的教訓幾乎已被遺忘,但它的影響將永存,”他寫道,並指出供應商融資是朗訊倒閉的“關鍵”——朗訊曾是全球最大的電信裝置公司,如今卻像輝達一樣,被譽為新興科技經濟中的“鐵鍬”公司。(朗訊在2002年經濟衰退期間險些破產,並於2006年被出售給法國競爭對手阿爾卡特。)摩根士丹利分析師周一在一份報告中表示:“我們看到了一些重要的區別。”其中最主要的是:大型科技公司的財務狀況比網際網路時代許多過度膨脹的股票要強得多。“我認為這是全球有史以來最大、最危險的泡沫,”宏觀戰略合夥公司(MacroStrategy Partnership)的朱利安·加蘭(Julien Garran)在周五一份頗為悲觀的報告中寫道。他估計,由人工智慧引發的“美國資本錯配”比網際網路泡沫嚴重17倍,比2008年的房地產泡沫嚴重4倍。但拋開循環融資及其盈利能力的討論,我們更應該關注的是這些投資的核心產品:由大型語言模型驅動的生成式人工智慧(LLM)。而這正是許多其他投資者、分析師和學者們高呼“皇帝沒穿衣服”的原因。“我想說,這種想法可能太狹隘了,”周一,當被問及對大規模人工智慧投資可能超前發展的擔憂時,AMD CEO蘇姿丰在雅虎財經上表示。“你必須認真考慮這項技術的力量能為世界帶來什麼。”蘇姿丰表示,公司“正在以正確的速度進行投資,因為我們希望加速發展……這是一個當公司和合作夥伴採取大膽行動時就會獲得回報的地方。”展望未來,蘇姿丰表示,人工智慧熱潮仍處於初期階段。“我堅信,這是一個十年超級周期的開端,”她補充道,人工智慧改變金融、醫療保健和研究等各行各業的潛力才剛剛開始顯現。她說:“我們相信,只要正確使用人工智慧計算,就能更快地解決疾病問題,更快地研發新藥,更好地診斷早期患者的問題,從而為人們的生活帶來改變。”寫在最後由於文章裡的“泡沫說”是一個假設,那就意味著其在未來並不會出現,這也引發了另一個猜想,OpenAI和AMD的交易,Microsoft對AMD和輝達的觀點,會否撼動當前的輝達格局?如上所述,輝達佔領了接近九成的訓練晶片市場。據FactSet 估計,人工智慧處理器目前每年為資料中心創造超過 1460 億美元的收入,預計未來 12 個月的年銷售額將達到 2260 億美元。相比之下,AMD 的資料中心業務目前的年銷售額略高於 140 億美元。首席執行官蘇姿丰在周一上午的電話會議上表示,一旦首批晶片在明年下半年開始部署,OpenAI 的交易將為該部門帶來“數十億美元的年收入”。她還指出,未來幾年該業務的收入可能“遠超 1000 億美元”。這將是一筆可觀的收入,但也表明 AMD 要想縮小與輝達在人工智慧系統市場的領先優勢,還有很長的路要走。就AMD而言,在追趕競爭對手的競爭中,AMD現在面臨著更大的風險。這筆交易從AMD預計將於明年下半年開始出貨的MI450晶片開始。AMD宣稱,這些晶片的性能完全可以與輝達計畫同期推出的Vera Rubin晶片相媲美。這將是一個巨大的飛躍。根據輝達在3月份的GTC大會上公佈的規格,首批Rubin系列晶片的計算性能將是輝達目前銷售的最強大的Blackwell晶片的3.3倍。MI450 也代表著 AMD 首次嘗試所謂的機架式系統,該系統將多個 GPU 晶片和其他元件組合在一起,有效地形成一台可裝入現有資料中心機架的 AI 超級電腦。這類系統的複雜性非常高;就連輝達去年在量產首批基於 Blackwell 的機架時也遇到了一些困難。但AMD在追趕輝達的競爭中,仍需實現一個雄心勃勃且快速推進的目標,同時還要兼顧其他業務,例如個人電腦和視訊遊戲等增長前景黯淡的市場。對於OpenAI和AMD的交易來說,還有一個關注點,那就是博通是否會最大利空。因為據之前報導,OpenAI正在與博通打造ASIC。專家此前曾猜測,AVGO 將成為僅次於 Nvidia 的第二大 AI 晶片供應商——尤其是在有報導稱 OpenAI 已下達 100 億美元定製 ASIC 訂單之後。對此,各位讀者是怎麼看? (半導體行業觀察)
牙膏踩爆!RTX 6090可能會有2.9萬個CUDA核心 但還得漲價
NVIDIA前兩天發佈了Rubin CPX,這是一款針對AI推理而生的GPU,沒用昂貴的HBM,而是給了128GB GDDR7視訊記憶體。這款CPX顯示卡對遊戲玩家而言也不是沒意義的,因為它很可能是未來的RTX 6090顯示卡基礎,網友High Yield稱CPX顯示卡沒有像其他AI專用卡那樣閹割了光柵單元,而是保留了下來。考慮到NVIDIA在復用GPU上刀法精妙,這意味著CPX所用的GPU核心未來也是Rubin家族遊戲卡的核心,即便規格不完全一樣,但也會非常相似。具體來說的,RTX 6090顯示卡所用的核心可能是GR202,SM單元數量從當前的170組提升到224組,CUDA核心來到了28672個,將近2.9萬核心了,也是史無前例的。這將使其FP32性能從RTX 5090的104.77TFLOPS提升到143.36TFLOPS,大約提升30%以上,這還沒考慮到架構上的提升。視訊記憶體規格方面可能變化不大,畢竟RTX 5090已經做到了32GB 512bit,NVIDIA也不太可能良心到一下子給64GB視訊記憶體,不過受益於GDDR7頻率提升,頻寬從1.8TB/s提升到1.92TB/s,聊勝於無吧。以上是對RTX 6090顯示卡的推測,個人覺得算是挺靠譜的,但是最終如何還得看NVIDIA在那裡下刀,整體性能提升30%也符合這兩年來的發展軌跡。不過伴隨著RTX 6090規格的提升,下代顯示卡又來一波漲價也是可以預期的,畢竟Rubin會使用台積電3nm工藝,比當前RTX 5090的4N(本質還是5nm改進)工藝貴不少,再加上其他改進,性能與價格漲幅估計也是正相關的。奇怪的是,RTX 5090/5080 FE公版開始消失了。NVIDIA Founders Edition是很多玩家心目中的信仰所在,但公版卡起的是一個帶頭作用,理論上不應該和AIC廠商搶生意,AMD的公版卡就幾乎不怎麼賣,NVIDIA這邊的公版卡壽命已經夠長了。最近在歐美市場,RTX 5090、RTX 5080的公版卡開始悄無聲息地消失,NVIDIA官網紛紛下架了,美國、法國、德國、英國等主要國家均是如此。比如在德國,NVIDIA官網上已經看不到RTX 5090 FE,而在英國和美國,RTX 5090、RTX 5080 FE都被移除了,最高只有RTX 5070。目前還不清楚這是臨時調整,抑或NVIDIA已經停產。NVIDIA德國的一位發言人在接受採訪時只是說,不清楚。NVIDIA中國官網上,RTX 5090 FE自然是沒有的,RTX 5080 FE倒是依然在列,可以跳轉到京東、天貓旗艦店,而價格一直堅持8299元不動搖。英國德國法國美國另外,SK海力士官方宣佈,全球第一家完成了新一代HBM4記憶體的研發,並且已經做好了大規模量產的準備。SK海力士HBM4記憶體的I/O介面位寬為2048-bit,每個針腳頻寬10Gbps,因此單獨一顆的頻寬就可高達驚人的2.5TB/s。這已經超過了JEDEC標準規範中規定的8Gbps,SK海力士宣稱在AI裝置中部署後可帶來最多69%的性能提升。SK海力士還使用了該公司自研的MR-MUF封裝技術,1bnm工藝也就是第五代10nm級。至於satck堆疊層數、單顆容量,SK海力士暫未披露,預計最高12堆疊。另外,三星也在積極推進HBM4,希望能和SK海力士搶一杯羹。HBM4記憶體對於下一代AI基礎設施至關重要,NVIDIA、AMD、Intel都離不開它。其中,NVIDIA Rubin預計搭載288GB HBM4,AMD Instinct MI400系列更是最高做到恐怖的432GB,頻寬19.6TB/s。除了遊戲卡市場,AMD還在AI顯示卡市場追趕NVIDIA的步伐,這個領域要比遊戲市場更難,甚至很難靠性價比優勢賣出銷量。AMD近期多位高管的表態都在強調2026年的MI450系列AI顯示卡將會給AMD帶來重磅收入,而且性能等方面全面超越對手產品。但是今年的AI市場上,AMD主打的MI350系列可能就沒那麼受歡迎了,HSBC匯豐銀行日前發佈的報告中,將AMD的目標價從200美元下調到了185美元。下調的原因就是MI355顯示卡的均價從25000美元降至23000美元,約合人民幣16.4萬元。該系列顯示卡是今年初才發佈的,3nm工藝,CDNA4架構,其中MI350X適用於風冷,MI355X適用於液冷,兩者的規格差不多,都是288GB HBM3e視訊記憶體,8TB/s頻寬,後者的性能更高一些。MI355X的FP64性能可達78.6TFLOPS,FP16、FP8及FP4性能則是5、10.1、20.1PFLOPS。這樣規格的顯示卡平均售價只要16萬元出頭,這是什麼概念呢?NVIDIA基於RTX 4090改進的國內特供顯示卡H20,也就96GB HBM3記憶體,之前國內售價都超過了20萬元,被哄搶的時候甚至更高。在AMD PPT中性能比B200還要強的MI350系列顯示卡,還要得打價格戰,這也能說明NVIDIA在AI市場護城河有多深,不單是AMD硬體性能領先就能比的。不過匯豐也在報告中表示,儘管下調了目標股價,但AMD在AI市場上的前景還是不錯的,明年預期收入也只是從151億調至139億美元,仍比預期高20%,華爾街低估了AMD的AI業務。包括微軟、甲骨文、Meta在內的雲服務廠商也在加強與AMD的合作,測試他們的MI400系列機櫃解決方案,這是AMD明年在AI市場翻身的殺手鐧級產品。 (硬體世界)
「一頁紙」講透產業趨勢之:Rubin CPX
這是一個非常「有錢景」的方向,我會借助 AlphaEngine 的幫助,幫你跨越產業趨勢研究的資訊鴻溝,每天挖掘一個財富密碼。今天的主角是:Rubin CPX,AI產業變革下一個核心驅動力。點選下方▶️按鈕收聽👇👇(1)Rubin CPX:AI產業進入“長上下文時代”的里程碑輝達近日發佈了一款專為長上下文場景設計的GPU——Rubin CPX。這款晶片旨在顯著提升AI推理效率,尤其適用於程式設計、視訊生成等需要處理超長上下文窗口的應用領域。Rubin CPX計畫於2026年底正式上市,市場定位是專為處理百萬級token長上下文AI推理而設計的關鍵基礎設施,旨在將AI算力正式推向Exascale(百億億次)時代。該產品的市場吸引力已得到初步驗證,包括Cursor(AI程式設計)、Runway(視訊生成)及Magic(AI程式設計)在內的多家前沿AI企業已率先採用該技術。Rubin CPX的推出可視為推動AI產業進入“長上下文時代”的里程碑事件,其核心價值在於通過架構創新為AI推理的規模化部署掃清了經濟性與效率障礙,為長上下文AI應用的商業化落地提供了高性價比的基礎設施。基於Rubin CPX的顛覆性設計,我們預見AI產業鏈將迎來深刻變革,一個全新的AI應用紀元正拉開序幕。1)上游供應鏈將迎來結構性增長:能夠滿足Rubin CPX嚴苛技術要求的供應商將獲得顯著優勢。例如,在PCB領域,對40層以上、採用M9級材料的高階伺服器板及HDI技術的需求將激增,為具備相關技術儲備的頭部廠商帶來確定性訂單。2)下游AI應用範式將被重塑:百萬級token的處理能力將徹底改變AI應用形態,AI編碼助手將從簡單的程式碼補全工具進化為能夠理解和重構整個複雜軟體項目的“AI架構師”,而視訊生成、藥物研發和企業知識庫問答等領域也將因上下文長度的突破而開啟新的可能性。(2)Rubin CPX的核心技術創新:解耦推理Rubin CPX的核心創新在於其獨特的解耦推理(Decoupled Inference)技術,該技術首次將大語言模型的推理流程從物理上分解為兩個獨立的階段:上下文處理(Prefill/Context)和生成(Decode/Generation)。傳統架構在單一硬體上執行這兩個特性迥異的任務,導致資源錯配與效率瓶頸。解耦架構則為每個階段匹配專用硬體:1)上下文處理階段:此階段計算密集(Compute-Intensive),需要大規模平行處理能力來消化海量輸入。Rubin CPX專為此設計,採用“胖計算、瘦頻寬”的理念,使用GDDR7來最大化算力利用率。2)生成階段:此階段頻寬密集(Bandwidth-Intensive),每個Token的生成都極度依賴記憶體訪問速度。該任務由標準的、配備高頻寬記憶體(HBM)的Rubin GPU(如R200)承擔,確保低延遲輸出。通過這種專用化分工,解耦推理架構實現了對計算和記憶體資源的精準調配,從根本上解決了傳統同構架構的效率天花板問題。Rubin CPX的解耦推理架構在處理流程、硬體瓶頸和記憶體策略上,與以GB300為代表的傳統同構架構形成了鮮明對比,其專用化設計帶來了革命性優勢。*註:由FinGPT Agent作表,原表請登錄AlphaEngine(3)Rubin CPX的關鍵性能參數Rubin CPX作為NVIDIA首款專為海量上下文AI推理設計的CUDA GPU,其單晶片及其組成的Vera Rubin NVL144 CPX平台在算力、記憶體、功耗及成本效益上均實現了對現有架構的顛覆性突破。以下是其核心技術規格與上一代旗艦GB300 NVL72的量化對比分析:*註:由FinGPT Agent作表,原表請登錄AlphaEngine從經濟效益的角度來看,Rubin CPX相比上一代架構,將帶來以下幾點變化:性能與成本的極致最佳化:Rubin CPX通過採用單片式設計,成功規避了當前先進封裝領域面臨的CoWoS產能瓶頸,這不僅保障了其在2026年的規模化量產能力,更帶來了顯著的成本優勢。其生產成本僅為同期旗艦訓練晶片R200的25%,卻能實現其60%的計算能力。同時,選用成本較HBM低50%以上的GDDR7視訊記憶體,進一步強化了其在推理市場的經濟性。平台級性能的指數級躍升:Vera Rubin NVL144 CPX平台通過異構協同,將AI性能推向了前所未有的8 EFLOPS(NVFP4精度),相較於上一代GB300 NVL72系統實現了7.5倍的性能飛躍。特別是在大模型推理的關鍵瓶頸——注意力機制處理上,其速度提升了3倍,這意味著處理百萬token級長上下文的效率和可行性得到了根本性改善。卓越的投資回報:基於其顛覆性的性能和成本結構,Rubin CPX展現出極高的經濟效益。據測算,在規模化營運下,其投資回報率(ROI)可高達30至50倍。具體而言,每1億美元的資本投入,預計可產生高達50億美元的token服務收益,這為資料中心和雲服務商提供了極具吸引力的TCO(總擁有成本)模型,預示著其將快速滲透至長上下文推理市場。(4)Rubin CPX對AI全產業鏈的深遠影響Rubin CPX的推出對AI產業鏈帶來了全方位的技術革新,催生了大量投資機遇,這裡我從“資料中心與液冷”、“PCB及原材料”、“AI應用”這三個角度展開。1)資料中心與液冷:Rubin CPX正強力推動伺服器架構向高密度、模組化的分解式設計(Disaggregated Design)演進,重塑AI計算基礎設施。其核心體現於Vera Rubin NVL144 CPX平台,該平台在單機架內實現了144個 Rubin CPX、144個Rubin GPU和36個Vera CPU的超高密度整合,樹立了行業算力密度的新標竿。這種分解式架構通過硬體專用化,將推理流程中計算密集的上下文處理(Prefill)與記憶體頻寬密集的生成(Decoding)階段分離,分別由CPX和標準Rubin GPU高效執行,實現了計算資源的精準匹配與利用率最大化。與此同時,Rubin CPX單晶片高達800W的功耗對資料中心的散熱與電源系統構成了嚴峻挑戰,傳統風冷方案已無法滿足散熱需求,這使得先進液冷技術(如直接液體冷卻DLC)的規模化普及成為必然趨勢,以確保系統穩定運行並最佳化能源效率(PUE)。巨大的單機架功耗需求也倒逼電源管理系統向更高效率和更高功率密度演進。這不僅涉及伺服器內部的電源架構,也涵蓋了從機架配電單元(PDU)到整個資料中心供電鏈路的全面升級,以支援未來AI叢集的龐大能源消耗。2)PCB及上游原材料:Rubin CPX技術規格的躍升正驅動上游關鍵材料需求的確定性放量。為滿足PCIe Gen 6等高速訊號傳輸的完整性要求,M9等級的超低損耗覆銅板材料已成為剛性需求。產業鏈向上游追溯,為實現超低損耗目標,石英布、 HVLP(極低輪廓)銅箔等高端材料的應用將從利基市場走向規模化普及。此外,承載Rubin CPX晶片本身的PCB預計將採用HDI(高密度互連)技術,進一步提升了PCB的設計複雜度和製造門檻,並帶來純粹的增量市場。這一趨勢已在頭部廠商的資本支出計畫中得到印證。以臻鼎為代表的PCB龍頭廠商規劃在2025-2026年投入的資本支出中,高達50%將明確用於高 階AI伺服器PCB的產能擴張,為即將到來的材料需求激增提前佈局。3)下游AI應用Rubin CPX將對AI應用帶來深遠的影響。首先,超長上下文將成為“標配”。128 GB GDDR7 + 30 PFLOPS NVFP4 的專用算力,讓單卡即可一次性載入 >1 M token 的程式碼或 1 小時視訊,無需再靠分片、滑動窗口等“折中”方案,直接把“整庫級”程式碼理解、長視訊連貫生成推向實用。其次,推理成本驟降,催生新商業模式。與旗艦 GB300 NVL72 相比,同樣長上下文任務性能最高提升 6.5 倍,而硬體成本更低(GDDR7 替代昂貴 HBM)。根據輝達官方測算,1 億美元新裝置可帶來 50 億美元 token 收益,ROI 達 30–50 倍,為 SaaS 平台按“百萬 token 幾分錢”收費提供了利潤空間。再次,“整庫級”AI 應用將成為主流。比如在Coding領域,Cursor、Magic等已計畫把整倉程式碼塞進模型,實現跨檔案重構、庫級問答,程式設計助手從“補全”升級為“架構師”。在視訊領域,Runway 等可在單卡完成 60 min 1080p 視訊生成,無需分段,保證情節、角色一致性。在科研/法律/金融等領域,百萬級 token 的論文、判例、財報一次性載入,多步推理即可在分鐘級完成,長文深度問答、自動研報進入可商用階段。一輪新的AI技術革命,正在滾滾而來。 (Alpha Engineer)
算力怪獸!NVIDIA Rubin CPX及液冷伺服器發佈!
9月10日輝達又放AI計算大招,推出專為長上下文推理和視頻生成應用設計的新型專用GPU——NVIDIA Rubin CPX。Rubin CPX基於NVIDIA Rubin架構建構,採用經濟高效的單晶片設計,配備128GB GDDR7記憶體,採用NVFP4精度,並經過最佳化,算力可達30PFLOPS,能夠為AI推理任務,尤其是長上下文處理(超過100萬個token)和視訊生成,提供了遠超現有系統的性能和token收益。與輝達GB300 NVL72系統相比,這款專用GPU還提供了3倍更快的注意力機制,從而提升了AI模型處理更長上下文序列的能力,而且速度不會降低。Rubin CPX與全新NVIDIA Vera Rubin NVL144 CPX平台中的輝達Vera CPU和Rubin GPU協同工作,進行生成階段處理,形成一個完整的高性能分解式服務解決方案。Vera Rubin NVL144 CPX平台可在單機架整合144張Rubin CPX GPU、144張Rubin GPU、36張Vera CPU,提供8EFLOPS的AI性能(NVFP4精度)和100TB的快速記憶體,記憶體頻寬達到1.7PB/s。其AI性能是輝達Vera Rubin NVL144平台的2倍多,是基於Blackwell Ultra的GB300 NVL72機架式系統的7.5倍。從液冷視角來看,NVL144CPX平台整合的Rubin晶片數量更多,單伺服器整合8塊Rubin晶片,對冷板和UQD的需求將會成倍增長,同時對於高功率的CDU需求也會上升。輝達首席財務官科萊特·克雷斯 (Collette Cress) 表示,公司代號為 Rubin 的下一代資料中心級 GPU 和代號為 Vera 的 CPU 已完成流片並進入“晶圓廠”生產階段,這意味著它們的晶片目前由台積電 (TSMC) 生產。該公告表明,輝達面向 AI 的下一代資料中心平台有望於 2026 年推出。科萊特·克雷斯 (Collette Kress) 在公司與財務分析師和投資者的財報電話會議上表示:“Rubin 平台的晶片已投入生產。Vera CPU、Rubin GPU、CX9 Super NIC、NVLink 144 縱向擴展交換機、Spectrum X 橫向擴展和橫向擴展交換機,以及(用於共封裝光學器件的)矽光子處理器。Rubin 平台仍按計畫於明年實現量產。”該晶圓廠擁有 Rubin NVL144 機架規模平台的所有晶片,表明它們已經通過了重要的流片階段,Nvidia 目前正在實驗室中等待它們,以驗證它們是否符合其性能、功耗、成本和其他目標。 (零氪1+1)